智能论文笔记

Meta-Referential Games to Learn Compositional Learning Behaviours

Kevin Denamganaï , Sondess Missaoui , James Alfred Walker

分类：自然语言处理 | 机器学习

2022-07-16

人类利用组成性从过去的经验概括到实际或虚构的新颖经验。为此，我们将我们的经验分为基本原子成分。然后，这些原子成分可以通过新颖的方式重新组合，以支持我们想象和参与新经验的能力。我们将其视为学习概括构图的能力。而且，我们将提到利用这种能力作为组成学习行为（CLB）的行为。学习CLB的一个核心问题是解决结合问题（BP）（首先，通过学习将支持性刺激成分与观察到多个刺激的观察，然后将它们结合在单个情节体验中）。尽管人类轻松地表现是智力的另一个壮举，但最先进的人造代理人并非如此。因此，为了建立能够与人类合作的人工代理，我们建议开发一种新颖的基准测试，以通过求解BP的域 - 不可稳定版本来研究代理商展示CLB的能力。我们从引用游戏的语言出现和基础框架中汲取灵感，并提出了参考游戏，标题为“元参考游戏”的元学习扩展，并使用此框架来构建我们的基准测试，我们将符号行为基准（S2B）命名。但是，尽管在本文中，它有可能测试更多符号行为，而不是仅仅是CLB，但我们仅专注于测试CLB的单格语言接地任务。我们使用最先进的RL代理商为其提供基线结果，并表明我们提出的基准是一个令人信服的挑战，我们希望我们能促使研究社区发展出更有能力的人工代理。

translated by 谷歌翻译